Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization
基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……
VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
视频条件声音和语音生成,包括视频转声音 (V2S) 和视觉文本转语音 (VisualTTS) 任务,通常被视为单独的任务,将它们统一到单一框架内的探索有限。最近统一 V2S 和 VisualTTS 的尝试在处理不同的条件类型(例如异构视频和转录条件)方面面临挑战,并且需要复杂的训练阶段。统一这两项任务仍然是一个悬而未决的问题。为了弥补这一差距,我们推出了 VSSFlow,它将 V2S 和 VisualTTS 任务无缝集成到一个统一的……
How PARTs Assemble into Wholes: Learning the Relative Composition of Images
对象及其部分的组成,以及对象与对象的位置关系,为表示学习提供了丰富的信息源。因此,空间感知借口任务在自监督学习中得到了积极探索。现有的工作通常从网格结构开始,其中借口任务的目标涉及预测固定网格内补丁的绝对位置索引。然而,基于网格的方法无法捕捉现实世界对象组合的流动性和连续性。我们介绍 PART,一种自我监督学习方法......
Self-Supervised Learning with Gaussian Processes
自监督学习 (SSL) 是一种机器学习范例,其中模型学习理解数据的底层结构,而无需来自标记样本的显式监督。从 SSL 获取的表示已被证明可用于许多下游任务,包括聚类和线性分类等。为了确保表示空间的平滑性,大多数 SSL 方法依赖于生成与给定实例相似的观察对的能力。然而,对于许多类型的数据来说,生成这些对可能具有挑战性。而且,这些方法缺乏考虑……
SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?
传达大型语言模型 (LLM) 不确定性的常见方法是在其响应中添加百分比数字或保护语。但这就是我们能做的一切吗?对用户完全透明的法学硕士需要能够反映其内部信念分布并输出其认为可能的所有选项及其可能性的摘要,而不是生成单个答案然后对其进行对冲。为了测试法学硕士是否具备这种能力,我们开发了 SelfReflect 指标,即给定摘要与答案分布之间的信息论距离。在...
Learning to Reason as Action Abstractions with Scalable Mid-Training RL
大型语言模型在强化学习 (RL) 方面表现出色,但完全释放这种潜力需要中期训练阶段。有效的中期训练阶段应该确定一组紧凑的有用动作,并通过在线强化学习在其中进行快速选择。我们通过提出关于训练中期如何塑造训练后的第一个理论结果来形式化这种直觉:它描述了一个动作子空间,该子空间可以最小化剪枝的值近似误差和后续规划期间的 RL 误差。我们的分析揭示了训练中期效果的两个关键决定因素:...
Principled Coarse-Grained Acceptance for Speculative Decoding in Speech
推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
扩散大语言模型 (dLLM) 是自回归 (AR) 模型的引人注目的替代品,因为它们的去噪模型在整个序列上运行。 dLLM 的全局规划和迭代细化功能对于代码生成特别有用。然而,目前 dLLM 在编码方面的训练和推理机制仍有待探索。为了揭开 dLLM 解码行为的神秘面纱并释放其编码潜力,我们系统地研究了它们的去噪过程和强化学习 (RL) 方法。我们在 130B 上训练 7B dLLM,\textbf{DiffuCoder}...
The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......
ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models
循环神经网络 (RNN) 为序列建模奠定了基础,但其内在的序列性质限制了并行计算,为扩展造成了根本障碍。这导致了 Transformer 等可并行架构以及最近的状态空间模型 (SSM) 的主导地位。虽然 SSM 通过结构化线性递归实现高效并行化,但这种线性约束限制了它们的表达能力,并妨碍对复杂的非线性序列依赖关系进行建模。为了解决这个问题,我们提出了 ParaRNN,一个打破......
Multivariate Conformal Prediction using Optimal Transport
保形预测 (CP) 通过构建可信输出集来量化机器学习模型的不确定性。这些集合是通过利用所谓的一致性分数(使用输入兴趣点计算的数量)、预测模型和过去的观察结果来构建的。然后通过评估所有可能输出的一致性分数并根据分数的排名来选择它们来获得CP集。由于这个排名步骤,大多数 CP 方法依赖于单变量的评分函数。将这些分数扩展到多元空间的挑战在于……
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......
Over-Searching in Search-Augmented Large Language Models
搜索增强型大语言模型(LLM)通过集成外部检索,擅长知识密集型任务。然而,它们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,这会导致计算效率低下,并因合并不相关的上下文而产生幻觉。在这项工作中,我们对跨多个维度的过度搜索进行了系统评估,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高……的答案准确性
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。投资回报率...
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。
Inferring Optical Tissue Properties from Photoplethysmography using Hybrid Amortized Inference
智能可穿戴设备能够通过光电体积描记法 (PPG) 持续跟踪已建立的生物标志物,例如心率、心率变异性和血氧饱和度。正如最近的深度学习 (DL) 研究表明,除了这些指标之外,PPG 波形还包含更丰富的生理信息。然而,深度学习模型通常依赖于生理意义不明确的特征,从而在预测能力、临床可解释性和传感器设计之间造成紧张。我们通过引入 PPGen 来解决这一差距,PPGen 是一种生物物理模型,它将 PPG 信号与可解释的生理和光学联系起来......
Which Evaluation for Which Model? A Taxonomy for Speech Model Assessment
语音基础模型最近在广泛的任务中取得了非凡的能力。然而,他们的评估在任务和模型类型之间仍然脱节。不同的模型擅长语音处理的不同方面,因此需要不同的评估协议。本文提出了一个统一的分类法来解决以下问题:哪种评估适合哪种模型?该分类法定义了三个正交轴:正在测量的评估方面、尝试任务所需的模型能力以及执行任务或协议要求......
AgentBuilder: Exploring Scaffolds for Prototyping User Experiences of Interface Agents
由生成式人工智能模型支持的界面代理(称为“代理”)可以根据用户命令自动执行操作。开发代理的一个重要方面是他们的用户体验(即代理体验)。人们越来越需要为人工智能工程师之外的更广泛的个人提供支架来原型代理体验,因为他们可以为设计代理体验贡献宝贵的观点。在这项工作中,我们通过对 12 名具有不同经验的参与者进行需求启发研究,探索了可供性代理原型系统应提供的功能......